pdfminer.six snippet
pdfminer.six でPDFを操作
テキストを抽出
code:shell
$ python pdf2txt.py sample.pdf -A -o sample.txt
-A 図表内のテキストも全て
-o 出力先ファイル指定(リダイレクトで保存したら文字化けしたが、-oなら大丈夫だった)
-O 画像出力先ディレクトリ
-t 出力タイプ: text, html, xml, tag